如果只看表面,Gemini in Chrome 很容易被歸類為「又一個 AI 助手功能」,但實際上新的突破......
Google 宣布,符合條件的使用者可以在 Chrome 中直接呼叫 Gemini,協助摘要網頁、整理資訊、撰寫內容、處理文件。限制條件也看似合理:目前僅限 18 歲以上、美國用戶、英文介面,且需要訂閱 AI Pro 以上方案。
這些條件讓它看起來像是一個仍在實驗階段的高階功能。
但如果把鏡頭拉遠,問題就不再只是「能做什麼」,而是「它被放在什麼位置」。
過去幾年,多數 AI 助手存在於三個層級之一:應用程式(App)、網站服務(Web Service)、或瀏覽器擴充元件(Extension)。即便能力再強,它們始終是「寄生在系統之上」的存在。
Gemini in Chrome 的不同之處在於,它不是被擴充進來的,而是被「放進去的」。
當 AI 成為瀏覽器核心的一部分,它的角色就從「工具」轉為「代理」。這是一個在科技史中反覆出現、但每次都會重塑權力結構的轉變。筆者透過 AIMochi 筆記工具,統整官方資料與相關資訊,來看看 Gemini in Chrome 的最新進展!
早在 2000 年代初期,就有人提出一句後來被不斷引用的話:「瀏覽器是新的作業系統。」
當時這句話聽起來更像是一種挑釁。但在今天,它幾乎只是事實描述。
對多數人而言,電腦的日常使用大概有九成時間都發生在瀏覽器中:工作文件、電子郵件、社群平台、影音串流、線上購物、雲端服務,甚至是開發與測試環境。
Chrome 早已不只是「打開網頁的工具」,而是一個承載工作、社交與娛樂的通用介面。
學界在人機互動(HCI)與數位行為研究中,也多次指出「行為集中化」的現象:當多數活動被整合到單一介面,使用者會逐漸將「決策與操作」外包給該介面的預設流程與推薦系統。
這正是瀏覽器成為代理入口的關鍵條件。
如果回顧工程與開發領域,其實不難發現這條路早就開始鋪設。
最初,瀏覽器自動化工具如 Selenium、Playwright,目的是協助測試與除錯。它們模擬人類點擊、輸入、瀏覽,只是為了「更有效率地驗證系統」。
接著,Chrome DevTools 提供了更深層的操作能力,讓開發者可以直接控制瀏覽器內部狀態。
到了近一年,隨著大型語言模型成熟,「Agent Browser」開始出現。這些系統不再只是執行指令,而是能根據目標自主規劃步驟,完成跨頁面、跨任務的操作。
Clawdbot 正是在這個背景下出現的代表案例。
Clawdbot 展示的,是一種讓 AI 直接「使用電腦」的方式:它看得見畫面、理解介面、能操作滑鼠與鍵盤,像人類一樣完成任務。
從技術角度看,這是一種 Computer Agent。從社會意義看,它更像是一場預演。
因為 Clawdbot 的核心並不是「電腦控制」,而是「代理授權」——人類選擇不再親自操作,而是讓系統替自己完成。
學術研究中,這被稱為 Human-AI Delegation(人類—AI 任務委派)。研究指出,當代理系統在成功率與速度上穩定超越人類,使用者會迅速降低介入程度,甚至放棄理解過程本身。
Clawdbot 的出現,讓這件事變得可視化、甚至有些震撼。但它並沒有改變趨勢,只是讓趨勢提前顯形。
從這個角度看,Google 將 Gemini 整合進 Chrome,其實是一個極其理性的選擇。
Chrome 是全球市佔率最高的瀏覽器;Google 擁有搜尋、廣告、雲端、文件、影音、作業系統(Android、ChromeOS)等完整生態系;Gemini 則是其最新一代、主打多模態與代理能力的模型。
把 Gemini 放進 Chrome,並不是權力擴張的突發奇想,而是生態系內部整合的自然結果。
《Financial Times》與《MIT Technology Review》都曾指出,大型科技公司在 AI 時代的競爭,不再只是模型能力,而是「誰能掌握使用情境的入口」。
而瀏覽器,正是最關鍵的入口之一。
有人可能會問:Chrome 不是早就有各種 AI 擴充元件了嗎?
差異在於「位置」。
擴充元件是可選的、可移除的、權限受限的。核心整合則意味著預設存在、深度存取、結構性依賴。
當 AI 位於核心層級,它不只是回應請求,而是可以「觀察整體狀態」,理解使用者行為的連續性,甚至在不同任務之間建立長期目標。
這正是 Browser Agent 與一般助手的分水嶺。
想像一個不那麼遙遠的場景:
你不再親自發文、整理資料、下載檔案、轉換格式。你只告訴瀏覽器:「幫我處理這件事。」
在這個過程中,Gemini 不只是執行工具,而是代表你做出一連串操作選擇。
學者在 Agent Autonomy 的研究中指出,代理系統一旦跨過「建議」與「行動」的界線,使用者對結果的心理歸因會開始模糊——成功是系統的,失誤卻仍由人承擔。
這種不對稱,正是代理時代最微妙的地方。
事實上,我們早就交出了一部分。
推薦演算法替你選內容;導航系統替你選路線;搜尋引擎替你排序資訊。
差別只在於,過去這些系統「不動手」,現在它們開始「替你動手」。
當 Chrome 內建 Gemini,這個轉換不再需要額外同意,它成為日常使用的一部分。
重要的是,這並不是一個單純的好壞問題。
從效率、無障礙、資訊處理角度看,Browser Agent 帶來的好處顯而易見。對企業與個人而言,這是一種強大的能力釋放。
但從制度與權力分配來看,這也意味著:「誰掌握代理,就掌握行動。」
而 Google,正好站在那個位置上。
如果試著再往前想一步,事情會變得更有意思。
Chrome 早已有 Remote Desktop。Gemini 已經能規劃與執行任務。作業系統、瀏覽器、雲端服務彼此連動。
那麼,Browser Agent 之後,會是什麼?
也許不是某個單一產品,而是一種狀態:當代理不再只存在於瀏覽器,而是橫跨裝置、空間與時間,成為「生活的執行層」。
回頭看 Clawdbot,它或許不是例外,而是預告。
而 Gemini in Chrome,只是那條線被正式跨過的時刻。
我們不一定正在失去什麼,但可以確定的是——我們已經進入了一個,行動不再完全由人類親自完成的時代。
接下來會變成什麼樣子,沒有人能給出答案。但可以確定的是,從這一刻起,瀏覽器不再只是你使用的工具。
它開始,替你生活了。
以上僅供參考與資訊分享之用!若想快速了解更多資訊,透過 AIMochi 筆記工具,幫我們從海量資料中,梳理出關鍵資訊,讓我們精準掌握重要訊息!